Bien cube, les données textuelles peuvent s'agréger !
نویسندگان
چکیده
Résumé. La masse des données aujourd’hui disponibles engendre des besoins croissants de méthodes décisionnelles adaptées aux données traitées. Ainsi, récemment de nouvelles approches fondées sur des cubes de textes sont apparues pour pouvoir analyser et extraire de la connaissance à partir de documents. L’originalité de ces cubes est d’étendre les approches traditionnelles des entrepôts et des technologies OLAP à des contenus textuels. Dans cet article, nous nous intéressons à deux nouvelles fonctions d’agrégation. La première propose une nouvelle mesure de TF -IDF adaptative permettant de tenir compte des hiérarchies associées aux dimensions. La seconde est une agrégation dynamique permettant de faire émerger des groupements correspondant à une situation réelle. Les expériences menées sur des données issues du serveur HAL d’une université confirment l’intérêt de nos propositions.
منابع مشابه
Portail Web de Veille Stratégique pour Mobile
Les techniques d’analyse multidimensionnelle sont actuellement bien maîtrisées pour toutes les données quantitatives disponibles sur les systèmes d’information des entreprises ou des administrations à condition que le SGBD s’y prête, que le schéma de la base soit adapté et que les données soient de qualité (homogènes, à jour, complètes, granularisées, compatibles,...). Il est toujours possible ...
متن کاملTLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateu...
متن کاملMéthodes à noyaux appliquées aux textes structurés
Résumé. Cet article ébauche un état de l’art sur l’utilisation des noyaux pour le traitement des données structurées. Les applications modernes de la fouille de données sont de plus en plus confrontés à des données structurées, notamment textuelles. Les algorithmes d’apprentissage doivent donc être capables de tirer parti des informations apportées par la structure, ce qui pose d’intéressants p...
متن کاملArchitecture et Outils pour la Recherche d'Evénements dans les Séquences Vidéo
RÉSUMÉ. Le problème abordé ici concerne l’indexation en ligne de données multimédia par la recherche d’extraits pertinents qui peuvent aussi être des réponses à des requêtes spécifiques. Nos travaux se focalisent sur l’analyse de séquences vidéo afin d’y détecter des événements prédéfinis. La recherche de ces événements étant contextuelle, nous proposons une architecture et des outils générique...
متن کاملRegrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes
Résumé. Organiser les données textuelles et en tirer du sens est un défi majeur aujourd’hui. Ainsi, lorsque l’on souhaite analyser un débat en ligne ou un forum de discussion, on voudrait pouvoir rapidement voir quels sont les principaux thèmes abordés et la manière dont la discussion se structure autour d’eux. Pour cela, et parce que un même texte peut être associé à plusieurs thèmes, nous pro...
متن کامل